Nature Medicine | 基于群体学习的分散式人工智能可通过组织病理学图像识别癌症
近年来,人工智能(AI)的迅速发展对临床应用产生了深远影响。尤其是结合医学成像技术,AI不仅可以自动执行医学图像分析中的手动任务,还能提取人眼不可见的信息。此外,数字化的组织病理学图像也包含了大量的临床相关信息,AI可以直接从常规组织病理学切片中预测分子变化。训练强大的AI系统往往需要大量且多样化的数据集,但在实践过程中,数据的收集通常面临伦理、法律方面的障碍。
2016年,谷歌公司提出了联邦学习(FL)技术,消除了对数据共享的需求,但并没有解决信息管理的问题。近两年,科研人员开发出了新的分散式学习技术——群体学习(SL),彻底打破FL技术的局限性。SL消除了FL的中心化,使所有合作者都能在同一层面上进行沟通和工作,共同平等地训练模型、分享数据,有助于训练出更强大、可靠的AI系统。但目前为止,SL技术尚未系统性地应用于肿瘤学图像数据中,特别是具有高信息密度的组织病理学图像。
近日,英国利兹大学医学研究所Jakob Nikolas Kather团队联合多个国际研究小组在Nature Medicine上发表了题为“Swarm learning for decentralized artificial intelligence in cancer histopathology”的文章。研究团队使用SL技术通过来自北爱尔兰、德国和美国的三个患者队列训练了AI模型,并对其预测性能进行了验证。结果显示,使用SL训练的AI模型具有较高的数据分析效率,其性能优于大多数局部训练的模型。SL有望在未来为更多不同组织病理学图像分析任务训练分布式AI模型。
文章发表于Nature Medicine
研究团队设计了一个支持SL的AI框架,使其能够基于组织病理学图像对实体瘤进行分类(图1),并利用Epi700(北爱尔兰)、DACHS(德国)和TCGA(美国)三个大型数据集对AI算法进行训练。接下来,研究团队训练了三个队列的局部AI模型及合并模型,并将其与最开始得到的三个SL AI模型进行性能比较。基本模型检查点1(b-chkpt1)在最小队列(TCGA)训练最后阶段结束时获得;基本模型检查点2(b-chkpt2)在第二小队列(Epi700)训练最后阶段结束时获得;通过增加较小队列的Epoch同时降低其在最终模型中的权重因子来加权SL,以平衡队列规模的差异,最终获得加权模型检查点(w-chkpt)。
图1. 深度学习和SL工作流程示意图。来源:Nature Medicine
接下来,研究团队在来自英国的两个独立数据集(QUASAR、YCR BCIP)中评估了SL AI模型在预测BRAF突变状态、预测微卫星不稳定性(MSI)/错配修复缺陷(dMMR)状态等方面的性能。结果显示,在病理图像分析中,SL训练的AI模型的表现始终优于大多数局部训练模型,并与在合并数据集上训练的合并模型性能相当。
图2. 基于局部、合并和SL的AI模型的分子变化预测。来源:Nature Medicine
由于模型的预测性能会随着训练数据集的增大而增加,在医疗人工智能应用中,使用较小的数据集训练模型成为挑战。研究团队分析了SL AI模型能否降低小型数据集训练时出现的性能损失(图3)。结果显示,当每个训练队列的患者数量限制在400、300、200和100时,局部模型的预测性能明显降低,合并模型和SL AI模型在一定程度上能够减少相关性能损失,且合并模型表现优于SL AI模型。此外,研究团队还发现SL AI模型对用于预测BRAF突变状态的小型训练数据集具有高度弹性,对用于预测MSI状态的小型训练数据集具有部分弹性。
图3. SL AI模型具有数据效率。来源:Nature Medicine
医疗AI模型不仅具有高性能,还应该具有可解释性。研究团队根据来自局部训练队列、合并队列以及SL AI模型b-chkpt1、b-chkpt2和w-chkp中300名患者训练得分最高的predictive image patches,在微米尺度上评估了这三种模型的预测性能(图4)。结果显示,基于SL的AI模型可以生成专家学者可解释的合理预测,在某些情况下,该模型预测结果的可信程度超过了盲法实验中评估的局部训练模型的预测结果。
综上所述,SL已成功应用于超5,000名患者的大型、多中心组织病理学图像数据集中,经过SL训练的AI模型可以直接从结直肠肿瘤组织的图像中预测临床相关的基因变化。此外,研究人员能够通过SL使用小型数据集来训练AI模型,降低了硬件要求,为更多科研人员提供了选择。
该文章作者Phil Quirke博士强调,群体学习用于医学能够为不同图像分析任务训练独立的AI算法,无需数据传输。未来还需通过大规模国际合作不断验证该技术,进一步提高模型性能。
· END ·
热文推荐